資料類型查看,為資料探索的重要第一步。
import pandas as pd
df=pd.DataFrame([[8,7,6,5,4],[3,4,2,9,5],[4,6,7,2,8],[2,7,6,3,9]],index=['小明','小美','小英','小玉'],columns=['蘋果','芭樂','香蕉','橘子','檸檬'])
print(df)
執行結果:
蘋果 芭樂 香蕉 橘子 檸檬
小明 8 7 6 5 4
小美 3 4 2 9 5
小英 4 6 7 2 8
小玉 2 7 6 3 9
1.查看資料結構
df.shape
執行結果:
(4, 5)
2.查看資料資訊
df.info()
執行結果:
<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 小明 to 小玉
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 蘋果 4 non-null int64
1 芭樂 4 non-null int64
2 香蕉 4 non-null int64
3 橘子 4 non-null int64
4 檸檬 4 non-null int64
dtypes: int64(5)
memory usage: 364.0+ bytes
由執行結果可看出「列資訊」、「行資訊」、「非空值數量」、「資料型態」、「佔用記憶體」等資料資訊。
3.查看索引(列)資訊
df1.index
執行結果:
Index(['小明', '小美', '小英', '小玉'], dtype='object')
4.資料類型
df.dtypes
執行結果:
蘋果 int64
芭樂 int64
香蕉 int64
橘子 int64
檸檬 int64
dtype: object
5.每種資料類別的欄位數量
df.dtypes.value_counts()
執行結果:
int64 5
dtype: int64
6.欄位中每筆資料出現的次數
df.value_counts('橘子')
執行結果:
橘子
2 1
3 1
5 1
9 1
dtype: int64
7.資料總筆數
len(df)
執行結果:
4
8.查看值資訊
df.values
執行結果:
array([[8, 7, 6, 5, 4],
[3, 4, 2, 9, 5],
[4, 6, 7, 2, 8],
[2, 7, 6, 3, 9]])
9.查看整體資料概況
對各欄位(行)資料進行各項統計數據計算,包含資料個數、平均值、標準差、最大值、最小值、排序後第25%、50%、75%的數值。
df.describe()
執行結果:
蘋果 芭樂 香蕉 橘子 檸檬
count 4.000000 4.000000 4.00000 4.000000 4.000000
mean 4.250000 6.000000 6.00000 4.750000 6.500000
std 2.629956 1.414214 2.94392 3.095696 2.380476
min 2.000000 4.000000 2.00000 2.000000 4.000000
25% 2.750000 5.500000 5.00000 2.750000 4.750000
50% 3.500000 6.500000 6.50000 4.000000 6.500000
75% 5.000000 7.000000 7.50000 6.000000 8.250000
max 8.000000 7.000000 9.00000 9.000000 9.000000
查看完資料,明天再來進一步探索囉~